Frontier LLMs Still Struggle with Simple Reasoning Tasks
URL:https://arxiv.org/abs/2507.07313
9 Jul 2025
最先端のLLM、特に「思考」モデルが、人間にとっては簡単な「単純な推論問題」に依然として失敗していることを示しました。この研究では、「退屈さ」の調整可能なパラメータを持つ手続き的に生成されたタスク(文字数/単語数カウント、一階述語論理、証明木、旅行計画)と、有名パズルを意図的に単純化した「Unpuzzles」データセットを導入しました。LLMは、タスクが長く、反復的、または退屈になると一貫して失敗することが示され、特に、元の(難しい)パズルでは優れたパフォーマンスを示すものの、対応する単純化されたUnpuzzlesではパフォーマンスが著しく低下するという現象を発見しました。これは、モデルが元のパズルのテキストと解法を記憶しているために、「推論デリリウム」と呼ばれる「考えすぎ」現象を示すためだと結論付けられています。本論文は、Apple論文 (Shojaee et al., 2025) が、思考型LLMが特定の臨界複雑性を超えると完全に失敗することを示した同時期の研究であると指摘しつつ、その実験設計には一部批判があることも述べています。
by NotebookLM